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Abstract of DE1 0026872 

The invention relates to a method for determining 
voice activity in a signal section of an audio 
signal. The result, i.e. whether voice activity is 
present in the section of the signal thus 
observed, depends upon spectral and temporal 
stationarity of the signal section and/or prior 
signal sections. In a first step, the method 
determines whether there is spectral stationarity 
in the observed signal section. In a second step, 
the method determines whether there is temporal 
stationarity in the signal section in question. The 
final decision as to the presence of voice activity 
in the signal section observed depends upon the 
initial values of both steps. 
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@ Verfahren zur Berechnung einer Sprachaktivitatsentscheidung (Voice Activity Detector) 

(57) Die Erftndunfj betriffi ©in Verfahren zur Bestimmung 
der Sprachaktivitat in einem Signal abschnitt eines Audio- 
Signals, wobei das Ergebnts, ob Sprachaktivitat im be- 
trachteten Signalabschnin vorllegt sowohl von der spek- 
tralen elaeuch von der zeitlichen Stationarrtat des Signal- 
abschnitts und/oder von vorangegangenen Signalab- 
schnftten ebhangt, wobei das Verfahren in einer ersten 
Stufe beurteilt, ob irn betrachteten Signalabschnin spek- 
trale Stations ritat vorliegt, und daS in winer zweiten Stufe 
beurteilt wird, ob im betrachteten Signalabschnin zeitli- 
chc Stationaritat vorliegt, wobei die endgultige Entschei- 
dung uber das Vorhandensein von Sprachaktivitat im be- 
trachteten Signal abschnitt von den Ausgangswerten der 
beiden Stufen abhangig ist. 
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Beschreibung 

[00013 Die vorUcgende Erfindung belriffl cin Verfahren zur Besummung der Sprachaktivitat in einem Signalabschnitt 
eines Audio-Signals, wobci da* Ergebnis, ob Sprachakti vital ijn beirachielen -Signalabschnitl vorliegt sowohl von der 
5 sncktralen als auch von der zeitlichen Stationaritat des Signal abschnitts und/oder von vorangegangenen Signalabschmt- 
ten abhangL 

[0002] 1m Bereich der Sprachuberuagung und im Bereich der digitaler) Signal- und Sprachspeicberung ist die Anwen- 
duog spezieller digjtaler Codierungs verfahren zu Datenkompressionszwecken weit verbreitet und auferund der bohen 
Datenauikoinmen sowic der begrenzten Obcrtragungskapaziiaten zwingend notwendig. Kin fur die Ubertragung von 
lu Sprache besonders geeignetes Verfahren isi das aus der US 4 J 33976 bekannte Code Excited Linear Prcdiction(CElP)- 
Verfahren. Bei diesern Verfahren wird das Sprachsignal in kleinen zeitlichen Abschnitten ("Sprachrahrnen", "Rah men", 
"zeitlicber Ausschnitt", "zeitiicher Abschnitt") von jeweils ca, 5 rns bis 50 rns Lange codicrl und Ubertragen. Jeder dieser 
zeillichen Abschnitte hzw. Rahrnen wird mcht. exakt, sondern nur durch eine Annaherung an die tatsachliche Signalform 
dargestellt. Die den Signalabschnitt beschreibende Approximation wir dabei im wesentlichen aus drei Komponenlen ge- 
ts wonnen, die Decoder-Seiug zur Rekonstruktion des Signals verwendet werden: Erstens einem Filter, das die spcktrale 
Struktur des jeweiligen Signaiausschnittes annahemd beschreibt, zweitens einem sog. Anregungssignal, das durch dieses 
Filler gefUleri wird, und drillens einem \ferslarkungsfaktor ("gain"), mil dem das Anregungssignal vor der Fiiterung mui- 
tipliziert wird. Der Verstarkungsfaktor ist fbY die Lautstarkc des jeweiligen Abschnitts des rekonstruicrten Signals ver- 
aniwortlich. Das Ergebnis dieser Fiiterung, stelll dann die Approximation des zu ubertragendBn Signalstuckes dar. Fiir je- 
2a den Abscbnitt muB die Information Uber die Filtereinstellungen und die Information Obex das zu verwendende Anre- 
gungssignal und dessen Skalierung ("gain"), die die Lauislarke beschreibl, Ubertragen werden. Im aligemeinen werden 
diese Parameter aus verse hi cdenen, dem Encoder und Decoder in idendschen Kopien vorliegenden Codebucbern gewon- 
nen, so daB zur Rekonstruktion nur die Nummer der am besteo geeigneten Codebucheintrage Ubertragen werden muB. 
Bci der Codierung eines Sprachsignals sind also fUr jeden Abschnitt diese am besten geeigneten Codebucheintrage zu 
25 bestimmen, wobei alle relevanten Codebuche intrage in alien relevanten Kombinationen durchsucht. werden, und dieje- 
nigen Eiuurage ausgewahll werden, die die im Sinne eines sinnvollen AbstandsmaBe* kleinsie Abweichung zum Origi- 
, nalsignal lie fern. 

{0003) Es existieren verscbiedene Verfahren zur Optimierung der Struktur der Codebucher (z. B. Mehrstufigkcit, Li- 
neare Pradikuon basierend auf den vergangenen Werten, spezifiscbe AbstandsmaBe, optirnierte Suchverfahren, etc.). Au- 
30 Berdem gibt es verschiedene Verfahren, die den Aufbau und das Durchsuchungs verfahren fur die Bestimmung der Anre- 
gungsrvektoren beschrciben. 

[0004] Haufig steilt sich die Aufgabe, den Charakler des im vorlicgendcn Rahmen bcfindliche Signales zu klassifizie- 
ren, damit die Details der Codierung, z. B.der zu verwendenden Codebiicher, etc. bestirnmt werden konncn. Dabei wird 
haufig auch eine sog, Sprach-Aklivitats-Entscheidung ("voice activity detection", VAD) gelroffen, die angibt, ob der ak- 

35 tuell vorbegende Signal auschnitt ein Sprachsegment oder kein Sprachsegment enthalt Eine solche Entscheidung muss 
auch bei Anwesenhcit von Hintergrundgerauschen richlig gctroflfen werden, was die Klassifikation exsebwert. 
[0005 j In dem hicr vorgestellten Ansatz wird die Entscheidung der VAD gleichgesetzt mil einer Entscheidung uber die 
Sutionaritat des aktuellen Signals, so dass also das AusmaB der Anderung der wesentlichen Signaleigenschaften aJs 
Grundlage fur die Bestimmung der Stationaritat und der damit zusammenhangenden Sprachaktivitat verwendet wird. In 

40 diesern Sinne isi dann z. B. ein Signalbereich ohne Sprache, der z. B . nur ein gleichbleibend lautes und speklral sich nichl 
Oder nur gcring anderndes Hintergrundgerausch aufweist, als slationar zu bezeichnen. Umgekehrt ist ein Signalaus- 
schnitt mit einem Sprachsignal (mil und ohne Anwesenheit des Hintergrundgerausches) als nicht slationar, also instatio- 
nar zu bezeichnen. Im Sinne der VAD wird also beim bier vorgestellten Verfahren das Ergebnis M instationar" mit Sprach- 
_ aktivitat gleichgesetzt, wahrend "stationar" bedeutet, dass keine Sprachaktivitat vorliegt. 

45 [0006] Da die Stationariiai eines Signals keine eindeuug festgelegte MeBgroGe ist, wird sie nachfolgend genauer defi- 
nieru 

[0007] Das vorgestellte Verfahren geht dabei davon aus, dass cine Bcsummung der Stationaritat idealcrweise von der 
zeitlichen Anderung des Kurzzeit-Mittelwertes der Energie des Signals ausgehen soUte. Eine solche Schatzung ist aber 
im aligemeinen nicht direki moglich, denn sie kann durch verschiedene storende Randbedingungen beeinfluBt werden. 

50 So hangi die Energie z. B. auch von der absolutcn Lautstarkc des Sprechers ab, die auf die Entscheidung aber keinen Ein- 
fluB baben sol lie. Daruber hinaus wird der Energieweri z. B. auch durch das Hintergrundgerausch beeinfluBu Der Einsatz 
eines auf einer Energiebetrachtung basierenden Kriieriums ist also nur sinnvoll, wenn derEinfluB dieser moglichen sto- 
renden Effekte ausgeschlossen werden kann. Aus diesern Grand ist das Verfahren zweistufig gestaltet: In der ersien Stufe 
wird bereits eine gultige Entscheidung uber die Stationaritat getroffen. Falls in der ersten Stufe auf "stationar" entschie- 

55 den wird, so wird das dicsen stalionaren Signalabschnitt beschreibende Filter neu berechnel und somit an das jeweils 
letzte stationare Signal angepabl. In der zweiten Stufe wird diese Entscheidung jedoch noch einmal nach einem andcrcn 
Kriierien geuoffen, und damit unter Verwendung der in der ersten Stufe bereitgestellten Werte kontrollien und gegehe- 
ncnfalls abgcandcrt. Dicsc zweite Stufe arbcilet dabei unler \ferwendung eines EnergiemaBes. Die zweite Stufe liefert 
auScrdcm cin Ergebnis, das von der ersten Stufe bei der Analyse des nachfolgenden Sprachrahmens berUcksichugl wird 

60 Auf diese Weise hestehl eine Ruckkopplung zwischen riiesen heiden Stufen, die sicherstellt, das die von der ersten Stufe 
gelieferten Werte eine optirnale Grundlage fur die Entscheidung der zweiten Stufe bilden. 
[0008] Die Arbeitsweisc der beiden Stufen wird im folgenden einzeln verges tellL 

[0009] Zunachsr wird die erste Stufe vorgcslcUl, die eine erste Entscheidung basierend auf der Uotersuchung der spek- 
tralen Stationaritat liefert. Betrachtet man das Frequenzspektruni eines Signaiahschnirts, so weist es tur deo betracbteien 
65 Zeitraum eine charakteristische Form auf. Ist die Anderung der Frequenzspektren zeitlich aufeinanderfolgender Signal- 
abschmtte hinreichend gering, d. h. die charakteristische Form der jeweiligen Spcktren bleibt mehr oder wenieer erhal- 
tcn. so kann man von spcktraler StationariLal sprechen. 

[0010] Das Ergebnis der Ersten Slufc wird mil STAT1 bezeichnet und das Ergebnis der zweiten Stufe mil STAT2. 
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STAT2 cntsprichi auch dcr endgtiltigen Entscheidung des hier vorgestellten VAD-Verfahrens. 1m folgenden werden Li- 
slen mit mehreren Wertcn in der Form "Lisiennarae[0. .N-1J" beschrieben, wobei uber Listenname[k], k = 0. . .N-l ein 
einzelner Wert, namlich dcr Wert mit dem Index k der Werteliste "Listennaxne" bezeicbnet wird. 

Spektraie Siationarit at (1 . Stufe) 
[00UJ Diese erste Siufc des Suuonaritatsverfahrens erhalt als Eingangs werte die folgenden GrfiBen; 

- lincare mdiktionskoeffizienten des aklueUen Rahrnens (LPC_NOW10. . .ORDER- 1 J; ORDER ■ 14) 
~ ein MaB fur die Stimmhafugkeit des akluellen Rahrnens (STJMMrOQ. .1]) 

- Die Anzahl der in der Analyse der zuruckliegenden Rahmen durch die zweile Stufe des Algorithmus ais "insta- 
uonar' , klassifizicrten Rah men (N.JNSTAT2, Werie = 0. 1, 2 T usw.) 

- verschiedene fur die rurUckHcgenden Rahmen berechnele Wcrte (STTMM_MEM[0. .1], T,PC_STAT1 [0. . OR- 
DER- 1]) 

10012] Als Ausgangswert liefert die erste Stufe die Werte 

- erste Entscheidung uber Station aritilt: STAT1 (rooglichc Werte: "siationar", "instationar") 

- Lineare J^adikiionskoeffizienten des letzten als "siaUonar" Uassifizierten Rahrnens (LPC„STAT1 ) 

r0013) Die Entscheidung der crstcn Stufe basiert pritnar auf der Betrachiung der sog. spektralen Distanz ("spektralcr 
Abstand'*, "spektraie Vcrzerrung", engl.: "spectral distortion") zwischen dem aktuellen und dem vorangegangenen Rah- 
men. In die Entscheidung gehen auBerdera auch die Werte eines StimmhafdgkeitsmaBes ein, das fux die letzten Rahmen 
berechnet wurde. Die ftir die Entscheidung verwendeten Schwelleawerte werden auBerdem von dcr Anzahl der unmil- 
telbar zuruckliegenden, in der zweitcn Stufe als "stationar" klassifizierten Rahmen (d. h. STAT2 = "stationar") beeinfluBt. 
Die einzelnen Berechnungen wertlen im folgenden erlaulert: 

a) Berechnung dcr spektralen Distanz 
[0014] Die Berechnung ergibt sich gemaM}: 



SD 



J 2n £ 



lOlog 



10 log 



dco 



to 



15 



20 



25 



30 



35 



[0015J Dabei bezeichnet 



lOlog 



14" 



10 log 



mm 'mm 



40 



den logarithmierten Einhullendenfrequenzgang des aktuellen SignalabschriiUs, der aus IPC_NOW berechnet wird. 45 



50 



bezeichnet den logariihniiertcn EinhOUendenfrequenzgang des vorangegangenen Signalabschnitts, der ausLPCLSTATI 
berechnet wird. 

[0016] Dcr Wert, von SD wird nach der Berechnung nach unien auf einen Minimal wert von 1.6 begrenzt Der so be* 
grenzie Wert wird daon als aklueller Wert, in eine Liste der vergangenen Werte SD_MEM[0. .9] gespeichert, wobei der 
am Iangsten zuruckljegendc Wert zuvor aus der Liste entfemt wurdc. 

1 0017] Neben dem aktuellen Wert ftir SD wird auch ein Mittclwert der vergangenen 10 Wene von SD berechnet, der in 
SDJMEAN gespeichert wird, wobei zur Berechnung die Werte aus SD_MEM verwendcl werden, 

* 

b) Berechnung der mirtleren Sl.immhaftigkeil 

10018] Als Eingangswerl in die erste Stufe wurden auch die Ergebnisse eines Stimmbaftigkeitsm asses (STIMMfO. . 1]) 
bereiigestellt. (Diese Werte liegen zwiscben 0 und 1 und wurden zuvor nach 
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V /-0 r»0 

berechnet, Durch tfildung des kurzzeitigen Mittelwertes von % uber den letzten 10 Signalabscbnillen (ma,/. Index des 
10 iiioineoianeD Signalabschnitts) folgen die Werte: 

STIMM [ k] = -~ • k ~°- 1 

15 wobei fur jedcn Rahmen zwei Werte berechnet werden: 

STIMM [0] fur die erste Rabmenhalfte, und STIMM[1] fur die zweite Rahmenhaifte, Hat SHMMfk] einen Wert nahe 0, 
so ist das Signal eindeuiig stimmlos, wahrcnd cin Wert nahe 1 einen eindeutig stimmhaften Sprachbereich charakteri- 
sien.) 

[0019] Um zunachst Slorungen im Sonderfall sehr ieiser Signale (z. B. vor Signalbeginn) auszuschlicBen, werden die 
20 daraus resulUcrenrien schr klcinen Werte von STIMM [k] auf 0.5 gesetzt, namlich dann ? wenn ihr Wert zuvor unter 0 05 
lag(furk==0, 1), 

[002©] Die so begrenzten Werte werden dann aJs akiuellste Werte an dcr S telle 19 in eine Lisle der vergangeoen Werte 
STIMM^MEMfO. .19] gespeichert, wobei die am langsten zuriickliegenden Werte zuvor aus der Liste entfernt wurdeo. 
[0021] Uber die zuriickliegenden 10 Werte von STTMM_MEM[] wird nun gemittelt, und das Ergebnis wird in 
35 SHMM_MEAN abgeiegt. 
. [0022J Die letaen vier Werte von SITMM^MEM, naiJilioh die Werte STJMM_MEM[16] bis STIMMJVtEM(l9] wer- 
den noch cinmal gcrniuclt und in STTMM4 gespeichert. 

c) Berticksichtigung der Anzabl eventueU vorliegender vereinzelter ^timrnhaft. M -Rahrnen 

30 

[0023] SoJlten bei der Analyse der zuriickliegenden Rahmen vercinzclt instationarc Rahmen aufgetrelen sein, so wird 
dies anhand des Wertes von NJNSTAT2 erkannt In diesem Fall liegtein Obergang in den "stationaV'-Zustand nur einigc 
wenige Rahmen zuruck. Die fur die zweite Stufe notwendigen LPC„STAT1 [ > Werte, die in der ersten Stufe bereitge- 
stelli werden, sullen in diesem Ubergangsbereieh aber nocb nicht sofort, sondern erst nach cinigen abzuwartenden "Si- 
35 cherbeitsrahmen" auf einen neuen Wert gebracht werden. Aus diesem Grand wird fur den Fall, dass NINSTAT2 > 0 ist, 
der interne Schwellwert TRES_SD_MEAN, der fur die nachfolgcnde Entscheidung verwendei wird, auf einen anderen 
Wert gesetzt als sonst: 

. TRES_SD_MEAN =• 4.0 (wenn N_INSTAT2 > 0) 

40 

TRES_SD_MEAN « 2.6 (sonst) 

d) Entscheidung 

45 [0024] Zur Entscheidung wird zunachst sowohi SD selbst als audi sein kurzzeitlicher Miltelwert uber den letzten 10 
Signalabschnitten SD_MEAN betrachtet. Liegen beide MaSe SD und SD_MEAN unterhalb eines fur sic speztfischen 
SchweUwertes TRES_SD bzw. TRES_SD_MEAN, so wird spektraie Stationaritat angenommen. 
[0025] Konkret gilt fur die Schwellenwerte: 

50 TRBS_SD =2.6dB 

* 

TOESJSD JvlEAN = 2.6 oder 4.0 dB (vgl c) 
und es wird entscnieden 

55 

S'lATl = "stauonar" wenn 

(SD < TKB&JSO) UND (SDJtfEAN < TRES_SD„MEAN), 
STAT1 = "instationar" (sonst). 

60 [002*] Innerhalb eines Sprach signaled das gemaB der Zi el settling der VAD als "in*UtionaV ( klassifiweri werden sollte, 
konnen allerdings kurzzeilig auch Abschnitte auftreten, die nach obigem Kriierium als "slationar" beiracluei werden, 
Solche Abschnitte konnen ajjerdings dann uber das Stimmbaftigkeilsmass STTMM_MEAN erkannt und ausgeschlossen 
werden: Falls der aktuetle Rahmen nach obiger Regel als "stationar" klassifiziert wurde, so kann nach folgender Regel 
eine Korrektur erfolgen: 

65 

STAT1 « "insiationar" wenn 

(STIMM_MEAN £ 0.7) UND (STIMM4 < « 0.56) 
Oder (STIMM_MEAN < 0.3) UND (STLMM4 < = 0.56) 
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odcr SHMM_MEM [ 1 9 J > 1.5. 

f 0027] Dami L li egt das Ergcbni s der ersten Stufc vor. 

c) Vorbereiten der Wcrte ftir die zweite Stufe 

[002fl] Die zweite Stufe arbeitet unter Verwendung einer in dieser Stufe vorbereiteten Liste von Linearen-Pradiktions- 
koeffuienten, die das zuletzt von dieser Stufe als "stationar" klassifiziertc Signal stuck bescbreiben. In diesem Fall wird 
LPUJSTAT1 durch das aktueUe LFC.NOW Uberscbrieben (update); 

LPC^STATl[k3 m LPC„NOW[k], k = 0. . ,ORDEK~l wenn STAT1 "stttionar" 

[0029] Anderenfalls werden die Werte in TJPCLSTAT1 [ ] nichr geandert und beschTeiben soniit weiicrbin den letzlen 
von der ersten Stufe als "stationar" klassifizierten SignalausschnitL 

■ 

Zeitliche Stationarital (2. Stufe) 



a) Berecbnung der Energie des Residualsignals 



to 



15 



[0030] Beirachiel man einen Signalabschniit im Zeitbereich, so weisj es einen fur den betrachteten Zeitraum charakte- 
risiiseben Amplitudes bzw. Energie vcrlauf auf. Blcibt die Energie zcitlich aufeinandcrfol gender Signalabschnitte kon- 
slant, bzw. die Abweichung der Energie tst auf ein hinreichend kleines Toleranzintervall begrenzt,. so kann nian von zeii- ao 
licher Stationaritat sprechen. Das Vorliegen einer zeitlichen Stalionaritai wird in der zweiten Stufe analysicrt. 
[0031] Als EingangsgroBen verwendet die zweite Stufe die Werte ■ 

- das aktueUe Sprachsignal in abgetasleter Form (SIGNAL[0. . .FRAME JLEN-1], FRAME_LEN = 240) 

- VAD-Entscbeidung derersien Stufe: STAT] (mogliche Wene: "&tationar", "instationar") 25 

- die Unearen Pradikiionskoeffizienleu, die den letzien "stalionUren" Rahmen besetirieben (LPCJSTATl f 0. .13]) 

- die Energie des Rcsiduaisignalcs des vorhcrigen stationarcn Rahmons (E_RES_REF) 

- Bnc Variable ANFANG, die einen Neubeginn der Werteanpassung stcuert (ANFANG, Werte = "true", "false") 
[0032] Ais Aus^angswert Hefert die zweite Stufe die Werte 30 

- abschliessende Entscheidung ubcr Stationaritat: STAT2 (mSgbche Werte: "stationary "instaLionar") 

- Die Anzahl der in der Analyse der zuriickliegenden Rahmen durch die zweite Stufe des Algorithmus als "insia- 
uonar*' klassifizierten Rabruea (N_INSTAT2, Werte s= 0, 1, 2, usw.) und die Anzahl der unmitielbar zuriickliegenden 
stationaren Rahmen N_STAT2 (Werte m 0, 1, 2, usw.), 35 

- Die Variable ANFANG, die ggf auf einen neuen Wert gesetzt wurde, 

[0033] Zur VAD-Entscheiduqg der zweiten Stufe wird die zeitliche Anderung der Eneigie des Rcsiduaisignalcs ver- 
wendet, das mil dem an den letzten stationaren Signalabschnitt angepassten LPOFilters LPC__STATll ] und dem akui- 
ellen Eingangssignal SIGNAL[ ] berechnet wurde. Dabei gehen sowohl eine Scbatzung der zuletzt vorliegenden Restsi- 40 
gnalcnergie E„RES_REF als untcrer Refcrenzwen und ein vomer ausgewahlter Toleranzwert E_TOL in die Entschei- 
dung ein. Der aktueUe Rcstsignal-Energiewert darf dann um nicbt nielir als E_TOLuber dem Referenzwen E_RES_REF 
iiegen, wenn das Signal als "stationar" gelten soil. 

[0034] Die Beslimmung der relevanten Grossen wird im folgenden dargestellt. 



45 



[0035] Das Eingangssignal SIGNAL[0. . .FRAMEJLEN-l] des aktuellen Rahmens wird unter Verwendung der in 
LPC_STAT1[0. .ORDER- 1] gespcichenen Linearen Prtidikuonskoeflizienten in vers gefiliert. Das Resultai dieser Filte- 
rung wird als "Rcsidualsignal" bezeichnet und in SPEECH_RES[0. .FRAME„UEN- 1 ] gespeichert 50 
10036] Darauf wird die Energie E_RES dieses Residualsignals SIGN AL_ RES [ ] berechnet: 



55 



to 



E RES ~ Summe [ SIGNAL RES[k] - SIGNAL RES[kJ/FRAME LEN), 
k - 0. . .FRAME_LEN~1 

und dann logarilhmiscb dargestellt: 

E_RES - 10 • log (E_RES/E_MAX) , 

wobei 

E_MAX = SIGNAL.MAX . SIGNAL. MAX 

[0037] SIGNAL., MAX beschreibt den maxima] moglichen Amplitudenwert eines einzelnen Abtasiwertes. Dieser 
Wert ist abhangig von der Implcincntierungsumgebung; in dem der Erfwdung zugrundeliegendcn Prototyp betrug er bei- 65 
spiclsweise 

SKiNAL_MAX = 32767; 
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. in anderen Anwendungslallen ist gegebenenfalls z. B. 
SIGNAL JVLAX* 1.0 
zu setzen, 

[0038] Der so berechnete Wert EJRES ist in dB beziiglich des Maximalwertes ausgedrucki. Er begi sorait stets unter- 
halb von 0, typische Werte betragen etwa -100 dB far Signale mit sehr niedrigcr Energie und etwa -30 dB fur Signale 
mil veigleichsweise boher Energie, 

[0039] Fails der berechnete Wert E_RES schr klein ist, so iiegt ein Anfangszustand vor, und der Wen von E_RES wird 
nach unicn begrcnzt: 

wcnn (E_RHS < -200): 
E.RES = -200 
ANFANG = true 

[0040] Diese Bedingung ist effektiv nur zu Beginn des Algorithmic oder bei schr iangen, sehr ruhigen Pausen erfull- 
bar, so dass nur zu Beginn der Wert ANFANG = true gesetzt werden kann, 
[0041] Der Wert von ANFANG wird unier dieser Bedingung auf false gesetzt: 

wenn (NJNSTAT2 > 4): 
ANFANG = false 

[0042] Urn die Berechnung der Referenz-Restsignalcncrgie auch fur den FaU niedriger Signaienergie sicherzustellen, 
25 wird folgende Bedingung eingefuhrt: 

wenn (ANFANG = false) UND (EJRES < -65.0): 
STAT1 = "sladonar" 

[0043] Damil wird die Bedingung fur die Anna; 1 ;;ng von E,J*ES JREF auch fur sehr ruhige Signal pausen erzwungen. 
30 [0044] Durch die Verwendung der Energie des i;csidualsignales wird implizit eine Anpassung an die zuletzt als statio- 
nar kiassifizierte Spektralform vorgenommen. Solite sich das aktuelle Signal gegentiber dieser Spektralform geandert ha- 
ben, so wird das Residualsignal eine messbar hobere Energie besitzen als in dem Fall eines ungeanderten, gleichmassig 
fortgesetzten Signals, 

35 b) Berechnung der Refeienz-Restsignaleneigie E„RES_REF 

[0045] Neben dem durch LPCLSTATl [ ] beschriebenen Einhullendenfrequenzgang des zuletzt von der ersten Stufe als 
"stauonar" klassifificrten Rahrnens wird in der zweiten Stufe auch die Residualenergie dieses Rahmens gespeichert und 
als Referenzwert verwendet. Dieser Wert wird mit E.,RES_REF bezeichnet. Sic wird hier immer genau dann neu festge- 
40 setzt, wenn die erste Stufe den aktuellen Rahmen als "stationaV klassifiziert hat In diesem Fall wird als neuer Giert fur 
diese Referenzenergle E_RES_REF der zuvor berechnete Wert EJRES verwendet: 

[0046] Wenn STAT1 = "stationur" dann seize 

45 E„RBS REF a E_RES wenn 

(E RES < E_RES_REF + 12 dB) ODER 
(E RES_REF < -200 dB) ODER 
(E RES < -65 dB) 

50 [0047] Die crste Bedingung beschreibt den Normalfall: Eine Anpassung von E_RES_REF findei somit fast immer 
statt, wenn STAT1 = "stationar" ist, denn der Toleranzweri von 12 dB ist bewuBt grossziigig gewahlL Die anderen Be- 
dingungen sind Spezialfallc; sic sorgen fur eine Anpassung zu Beginn des Algorilbmus und fur eine Neuschatzung bei 
sehr niedrigen Eingangswerten, die in jedeni Falle als neuer Referenzwert fur stationare Signalabschnitle gelten sollen. 

55 c) Bestiramung des Toleranzwertes E_T0L 

[0048] Der Toleranz.wert E_TOL gibt fur das Entscheidungskriterium eine maximale erlaubie Anderung der Energie 
des Rcsidialsignales gegentiber derjenigen der vorherigen Rahmens an, damit der aktuelle Rahmen als "stationar" gelten 
kann. Zunachst wird gesetzt 

E_TOL~l2dB 

[0049] Dieser vorlaufige Wert wird nachfotgend jedoch unter besiimmten Bedingungen korrigiert; 
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wenn N_STAT2 <= 10 
E TOL - 3.0 



sonst 



wenn E RES < -60: 



sonst 



EJTOL =13.0 

wenn E RES > -40: 
E TOL - 1.5 



sonst 

r 



E TOL =6.5 



STAT2 
N STAT 2 



"instationar" 
0 



N_INSTAT2 - N_INSTAT2 + 1 



sonst 



STAT2 
N STAT 2 



"stationar" 
N STAT 2 + 1 



wenn N_STAT2 > 16:- 
N_INSTAT - 0 

fO053] Der Zahlcr der zurrtckUegenden stationaren Rahmcn N_STAT2 wird also sofort beim Aiiftrcien eines inslaiio- 
naren Rahmcns auf 0 gesctzt, wahrcnd der Zahler fur die zuruckbegenden instationaren Rahmen N INSTAT2 erst nach 
dem Vorliegen einer bestimmten Anzahl (irn reab'sierten Prototyp: 16) von aufeinanderfolgenden stationaren Rahmen 
auf 0 gesetzt wird. N JNSTAT2 wird als Eingangswert dcr crsten Stufe vcrwendel, und hat dort EinfluB auf die Emschei- 
dung dcr ersten Slufe. Konkret wird UberNJNSlA'n verhinden, dass die erste Suite den das KinhuUendenspekirum be- 
schreibenden Koeffizienicnsatz LPC_STAT1(] neu besummt, bevor gesichen isi, dass taisachlich ein ncuer stationarer 
Signalabschnitt vorliegt. Kurzzeitige oder vereinzcltc STAT2 = "sLationaV-Entscheidungen konnen also auftrelcn, aber 
erst nach einer besummten Anzahl aufeinandcrfolgender als "stationar" klassifizierter Rahmen wird auch der das Einhiil- 
lenrienspektrum heschreibenden KoeffizientensatzLPCLSTATI [ J fur den dann vorlicgcnden Klauonaren Signal ahschniu 
in der ersten Stufc neu bcslimmt. 

10054J Entsprechend der fur die zweite Srufe vorgesielllen Arbeilswcise und der vorgestellten Parameter wird die 
zweite Slufe eine STATJ = ''stationar'-Entscheidung der ersicn Slufe niemals zu "instationar" abandern, sondern wird in 
diesem Falle iminer ebenfails auf STAT2 » "stationar" entscbeiden. 

10055J Eine "STAT1 = "insLationar"-Entschcidung dcr ersten Stufc kann dagegen von der zweitcn Stufe zu einer 
STAT! m "station ar"-Entscbeidung korrigiert werden, odcr auch als STAT2 = "instationar" bcstatigi wcrden. Dies ist ins- 
besondere dann der Fall, wenn die spektrale Instaiionaritau die in dcr crsten Stufe zu STAT1 » "instationar" gefuhrt hat, 
ledigbch durcb vereinzelte spektrale Schwankungen des Hiniergrundsignales vcrursacht wurde. Dicser Fall wird jedoch 
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10050] Mil der ersten Bedingung wird sichergeslellt, dass eine bisher nur kurz bestehendc Stationaritai sehr leicht ver- 
lassen werden kann. indent durch die niedrige Toleranz EJTOL leichter auf "instationar" enischicdcn wi/d. Die anderen 
Falle beinhalten Anpassungen, die fiir verschiedene Spczialfallc jewetis gunstigste Werte vorsehen (Abschnitte mit schr 
niedriger Energie sollen sebwerer als "instationar" klassifiztert werden, Abscbnitie mit vergleichsweise boher Energie 25 
sollen leichter als "instationar" MassiGziert werden). 

d) Entscheidung 

[0051] Die eigentliche Entscneidunj; findet nun unter Verwendung der zuvor berechncteo und angepassten Werte 30 
E„RES, E_RES_REF und E_TOL stall. Ausscrdem wird sowohl die Anzahl aufeinanderfolgendcr "stationaier" Rahmen 
NJJTAT2 als auch die Anzahl zuruckliegender instationarer Rahmen N JNSTCTC auf aktuelle Werte eesetzt 
[0052] Die Entscheidung erfolgt nach: 

wenn ( E__RES > E_RES_REF + EJTOL) : 
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in der zweiien Stufe untcr Berucksichtigung der Energie neu entschieden. 

(0056] Es versieht sich von seibst, daft die Algorithmen zur Besummung der Sprachaktivitat, der Stationaritat und der 
Periodizitat den jeweils gcgebenen Umslanden enisprechend angcpaBt werdcn miissen bzw. konnen. Die einzelnen o. a. 
SchweUwerle und Funkuonen sind lediglich exemplarisch und miissen in derRegei durch eigene \fersucne herausgerun- 
s den werden. 

PatentansprUche 

1 , Verfahren zur Bestimmung der Sprachaktivitat in einem SignalabschniU eines Audio-Signals, wobei das Ergeb- 
io nis, ob SprachakuviUU im belrachleten SignalabschniU vorliegt sowohl von der spektralen als auch von der zeitli- 

chen Stationaritat des SignalabschniU* und/odcr von vorangegangencn Signalabschniuen abha'ngt, dadurch ge- 
kennzcichnct, daS das Verfahxen in einer erslen Stufe beuneilt, ob im betrachteten SignalabschniU spektrale Statio- 
naritat vorliegt, und daB in einer zwei ten Stufe beurteilt wird, ob im betrachteten Signalabschnitt zeitliche Stariona- 
ritat vorliegL, wobei die endgQJtige Entscbeidung uber das Vorhandensein von Sprachaktivitat im betrachteten Si- 
15 gnalabschnitt von den Ausgangswerten der beiden Stufen abhangig isL 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daB zur ErmilUung der spektralen Stationaritat sowie der 
Energieveranderung (zeitliche Siaiionaritat) mindestens ein zeitlich vorangegangener SignalabschniU berucksich- 
tigt wird. * 

3, Verfahren nach einem der vorhergchenden Anspriiche, dadurch gekennzeichnet, daB jeder Signalabschnitt in 
20 mindestens zwei UnterabschniUe aufgeteilt wird, die sich Uberlappen konnen, wobei fur jeden Unlerabschnitt die 

Sprachaktivitat bcsiimmi wird. 

4. Verfahxen nach Anspruch 3, dadurch gekennzeichnet, daB fur die Beurteilung der Sprachaktivilat eines zeillich 
nachfolgenden Signal abschnitts die ermitlelten Werle fUr die Sprachaktivitat der einzelnen UnterabschniUe jedes 
vorangegangen Signalabschnitts berucksichugt werden. 

25 5. Verfahren nach einem der vorhergehenden Ansprilche, dadurch gekennzeichnet, daB in der crsten Stufe die spek- 

u-ale Vcrzerrung (engl. spectral distortion) zwischen dem aktuell beirachteien SignalabschniU und deui oder den 
vorangegangencn Signalabschniuen crmittclt wird, 

6. Verfahren nach einem der vorhergehenden Anspriiche* dadurch gekennzeichnet, daB die erste Stufe eine ersie 
Entscheidung uber die Stauonaritat des beirachteien Signalabschnitts trim, wobei eine AusgangsgroBe STATl die 

30 Werte "slationar" oder " in station ar" annchmen kaon. 

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daB die Entscheidung Uber die Stationaritat auf Basis der 
zuvor ermitteiten linearen Pradikauonskoeffizienten des aktuellen Signalabschnitts LPCJNOWJ ] und einem zuvor 
ermittelten MaB fur die Summhafbgkeit des belrachleten Signalabschnitts erfolgt. 

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daB zusatzlich die Anzahl der in der Analyse der zuruck- 
35 liegenden Signalabschnitte durch die zweile Stufe als "instationar" klassifizierten Signalabscbnitte N_INSX\T2 fur 

die Bewertung von STATl berucksichligt werden. 

9 Verfahren nach Anspruch 7 oder 8. dadurch gekennzeichnet, daS zusatzlich fur die zurfickliegenden Rahrnen be- 
rechnete Werte wic z. B. STuMM_MEM[0. .1], LPC„STATlf ] bei der Berechnung eines Wertes fur STATl beriick- 
sichugt werden. 

40 10. Verfahren nach einem der vorhcrigen Ansprucbe, dadurch gekennzeichnet, daB die ersie Stufe zusatzlich zu 

dem Ausgangswen STATl einen weiteren Ausgangswert LPCJ5TAT1 [ ] lieferi, der von LPC_NOWf ] und STATl 
abhangig ist. 

11. Verfahren nach einem der vorherigen Ansprucbe, dadurch gekennzeichnet, daB in der zweiien Stufe zur Beur- 
teilung, ob zeitliche Stationaritat vorliegt, zumindest folgende EingangsgroBen verwendet werden: 

45 - Signalabschnitt in abgetasteler Form; 

- STATl (Entscheidung der crsten Stufe). 

12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daB zusatzlich folgende EingangsgroBen in der zwei ten 
Stufe verwendet werden: 

- die linearen PnfchkationskoefTizienten LPCJSTATl [ J, die den letzren stationaren SignalabschniU heschrei- 
50 ben; 

- die Energie E_RES_REF des Res idu als ign ales des vorherigen stationaren Signalabschnitts; 

- eine Variable ANFANG, die einen Neubeginn der Weneanpassung sieuert, wobei die Variable ANFANG die 
"Werte "wahr" und "falsch" annehmen kann. 

13. Verfahren nach einem der vorhcrigen Anspruche, dadurch gekennzeichnet, daB imraer wenn STATl gleicb "sta~ 
55 tionar" die zweile Stufe als Ergebnis fur STAT2 "stationar" ausgibt. 

14. Verfahren nach einem der vorherigen Anspriichc, dadurch gekennzeichnet, daH der Wert von S'iXH das MaK 
fur die Sprachaktivitat des beirachteien Signalabschnitts ist. 
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